11. 2項分布による分析
https://gyazo.com/4f7dfd91756d579cff6ea820ee6ff329
10章まで扱ってきたもの
連続的な値を取るデータ
計量データが従う分布
本章と次章
数を数えるデータ
計数データが従う分布
11.1. 場合の数
場合の数の問題
5人の子供が並ぶとき、並び順はいくつかるか
$ 5! = 5 \times 4 \times 3 \times 2 \times 1 = 120通り
$ n個の対象の並び順の場合の数$ n!
$ n! = n \times (n-1) \times \cdots \times 1
赤い饅頭が3個、黒い饅頭が2個ある。順番に食べるとき、食べ方は何通りあるか
$ \frac{5!}{3!\times2!} = 10 \qquad (11.1)
並び順は区別しないので赤$ 3!, 白$ 2!重複して数えている
$ n個の饅頭があり、赤い饅頭が$ x個、黒い饅頭が$ y(=n-x)個ある場合の食べ方
$ \frac{n!}{x! \times y!} = \frac{n!}{x! \times (n-x)!} \qquad (11.2)
血液型がA型, B型, O型, AB型の人が、それぞれ4人, 3人, 2人, 1人、合計で10人いる。血液型の並び順は何通りあるか
$ \frac{10!}{4! \times 3! \times 2! \times 1!} = 126000 \qquad (11.3)
以上を一般化する
$ k種類のお菓子が混ざっていて合計$ n個ある
1種類目のお菓子が$ x_1個、2種類目のお菓子が$ x_2個, $ \cdots k種類目のお菓子が$ x_k個ある
このときお菓子の並べ方は(11.2)式左辺を拡張して
$ \frac{n!}{x_1! \times \cdots \times x_k!}, \quad ただしn = x_1 + \cdots x_k \qquad (11.4)
11.2 離散分布
本説では理論分布としてベルヌイ分布・2項分布を説明して、カテゴリカルなデータの分析に備える
これらの分布は事前分布としてではなく、データ生成分布(尤度を構成する分布)として利用する
11.2.1. ベルヌイ分布
バスケットのフリースローを試み、成功($ x=1)か、失敗($ x=0)かを観察する
ここでは当該の選手のフリースロー成功確率
結果が2値で、確率が一定である試行
ベルヌイ試行の1回の結果は以下の確率分布で表現する
$ f(x|p) = p^x(1-p)^{1-x}, \quad x = 0, 1 \qquad (11.5)
実数の$ 0乗は$ 1であるから、成功($ x=1)と失敗($ x=0)の場合で以下のようになる
$ f(x=1|p) = p^1(1-p)^0 = p \qquad (11.6)
$ f(x=0|p) = p^0(1-p)^1 = 1 - p \qquad (11.7)
この確率分布はベルヌイ試行の成功と失敗の確率を与えている
11.2.2. 2項分布
複数回のフリースローの成否は互いに影響しない(独立である)とすると、フリースローを3回試みて2回成功する確率はどの程度だろうか
たとえば、(成功・失敗・成功)がこの順番に確立される確率
$ f(x=1|p) \times f(x=0|p) \times f(x=1|p) = p \times (1-p) \times p = p^2(1-p)^{3-2} \qquad (11.8)
しかし、2回成功するケースは(成功・失敗・成功)と(成功・成功・失敗)と(失敗・成功・成功)の3ケース
$ p \times (1-p) \times p + p \times p \times (1-p) + (1-p) \times p \times p = 3 \times p^2(1-p)^{3-2} \qquad (11.9)
成功を赤い饅頭、失敗を黒い饅頭だと考えれば、成功と失敗の並び順が何通りあるかは、(11.2)式右辺で計算できる
(11.9)式の係数は
$ \frac{n!}{x! \times (n-x)!} = \frac{3!}{2!\times1!} = 3 \qquad (11.10)
となり、一致することが確認できる
この性質を利用すると、確率$ pで成功する$ n回のベルヌイ試行の成功数が$ xになる確率は以下のように表現できる
$ f(x|p) = \frac{n!}{x! \times (n-x)!}p^x(1-p)^{n-x}, \quad x=0,1,\cdots,n \qquad (11.11)
2項分布の平均と標準偏差はそれぞれ以下であることが知られている
$ n \times p \qquad (11.12)
$ \sqrt{n \times p \times (1-p)} \qquad (11.13)
11.3. 比率の推測(1つの2項分布)
餡の選好問題
つぶ餡とこし餡のどちらが好きかを調べた
500人中305人がつぶ餡が好きだと回答し、195人がこし餡が好きと回答した
つぶ餡好きの比率の方が大きいといってよいか
「つぶ餡とこし餡のどちらが好きか」という問いへの回答をベルヌイ試行とすると、調査対象$ n人中のつぶ餡好きの人数$ xは2項分布$ f(x|p)に従う
したがって(2.12式)に相当する尤度は(11.11)式となる
事前分布$ f(p)としては、確率の定義域に対する一様分布を仮定する
$ p \sim U(0, 1) \qquad (11.14)
(2.15)式に相当する事後分布
$ f(p|x) \propto f(x|p)f(p)
MCMC法を利用し、母数の事後分布・生成量の事後分布・予測分布に従う乱数を生成することが可能
ここでは長さ$ 21000のチェインを5つ発生させ、バーンイン期間を$ 1000とし、HMC法によって得られた$ 100000個の乱数で事後分布・予測分布を近似した
table: 表11-1 比率の事後分布と予測分布の数値要約
EAP post.sd 2.5% 5% 50% 95% 97.5%
p 0.610 0.022 0.567 0.574 0.610 0.645 0.652
EAP sd 2.5% 5% 50% 95% 97.5%
x^* 305 15.4 274 279 305 330 335
比率の推定値は$ 0.610(0.022)[0.567, 0.652]
$ x^* の数値要約は$ 305(15.4)[274, 335] である
ただし、事後予測分布であるから小カッコの中は標準偏差
(11.12)式にEAP推定値を代入すると$ 305(=500 \times 0.610)となり、予測分布のそれと一致する
しかし、(11.13)式にEAP推定値を代入すると$ 10.9(=\sqrt{500 \times 0.610 \times(1 - 0.610)})となるので、事後予測分布の標準偏差$ 15.4よりだいぶ小さくなった
これは母数$ pが分布しているため
11.3.1. オッズ
$ odds = \frac{p}{1-p} \qquad (11.16)
オッズの範囲は$ 0 \leq odds \leq \inftyであり、$ 0 \leq p \leq 1の範囲の比率と1対1に対応する
したがって、オッズは確率の別表現
「チームAが勝つ確率が$ 0.2と予想されている」ときには、オッズは$ 1/4=(0.2/(1-0.2)))となる
これはAが勝つと予想している人がBが勝つと予想している人の1/4ということ
オッズは賭けに勝った人の払い戻し倍率の逆数
オッズの事後分布は以下の式で近似される
$ odds^{(t)} = \frac{p^{(t)}}{1-p^{(t)}} \qquad (11.17)
「餡の選好問題」のオッズの事後分布の数値要約
table: 表11-2 「餡の選好問題」のオッズの事後分布の数値要約
EAP post.sd 2.5% 5% 50% 95% 97.5%
odds 1.57 0.14 1.31 1.35 1.56 1.82 1.87
オッズの推定値は$ 1.57(0.14)[1.31, 1.87]であり、つぶ餡好きはこし餡好きの1.57倍いる
11.3.2. 研究仮説が正しい確率
「研究仮説$ U_{c<p}:$ pは$ cより大きい」が正しい確率
「研究仮説$ U_{c<x^*}:$ x^*は$ cより大きい」が正しい確率
「研究仮説$ U_{c<odds}:$ oddsは$ cより大きい」が正しい確率
それぞれ以下の生成量のEAPで評価できる
$ \begin{aligned} u_{c<p}^{(t)} & = \begin{cases} 1 & c < p^{(t)} \\ 0 & それ以外の場合 \end{cases}, \quad u_{c<x^*}^{(t)} = \begin{cases} 1 & c < x^{*(t)} \\ 0 & それ以外の場合 \end{cases}, \\ u_{c<odds}^{(t)} & = \begin{cases} 1 & c < odds^{(t)} \\ 0 & それ以外の場合 \end{cases} \qquad (11.18) \end{aligned}
「『つぶ餡』が好きな人の比率は$ 0.65より多い」という研究仮説が正しい確率は$ 0.030だった
「もう一度同じ調査をすると『つぶ餡』が好きな人は$ 330人より多い」という研究仮説が正しい確率は$ 0.046だった
「『つぶ餡』好きは『こし餡』好きの$ 1.6倍より多い」という研究仮説が正しい確率は$ 0.396 だった
11.4. 2×2のクロス表の推測(2つの2項分布の積)
2つの独立した2項分布の積として尤度が表現される2×2のクロス表の分析法を学ぶ
ブランド認知問題1
ファッションブランドAを知っているか否か(認知、非認知)を男女別に集計した
table: 表11-3 ブランド認知率調査の結果(人数)
知っている 知らない 合計
女性 85 38 123
男性 31 90 121
母比率(認知率)の推測をしなさい
女性の認知者$ x_1は$ n_1 = 123, 母比率$ p_1の2項分布に従い、男性の認知者$ x_2は$ n_2 = 121,母比率$ p_2の2項分布に従うとする
女性の認知者数と男性の認知者数は、互いに影響しあわずに独立に分布するから、データ$ \bm x = (x_1, x_2) = (85, 31), 母数$ \bm \theta = (p_1, p_2)の尤度は、2つの2項分布の積
$ f(\bm x|\bm\theta) = f(x_1, x_2|p_1, p_2) = f(x_1|p_1) \times f(x_2|p_2) \qquad (11.19)
事前分布$ f(p_1), f(p_2) としては、確率の定義域に対する区間$ [0, 1] の一様分布を仮定し、同時事前分布を以下とする
$ f(\bm\theta) = f(p_1) \times f(p_2) \qquad (11.20)
(2.15)式に相当する事後分布
$ f(\bm\theta|\bm x) \propto f(\bm x|\bm\theta)f(\bm\theta) \qquad (11.21)
MCMCで母数や生成量の事後分布を近似する
11.4.1. 比率の差・比率の比・オッズ比
独立した2×2のクロス表を分析する際に有効な生成量を3つ挙げる
1つは、2つの集団の正反応の比率の差
$ p_1 - p_2 \qquad (11.22)
先の例では女性と男性の認知率の差
差を考察することによって2つの集団の性質の違いを考察する
比率の差は直感的にわかりやすく重要な指標
ただし、比率の差だけでは2つの集団の違いを考察するには不十分
状況A: $ p_1 - p_2 = 0.5001 - 0.5000 = 0.0001
状況B: $ p_1 - p_2 = 0.0002 - 0.0001 = 0.0001
両者は差という観点からは同じだが、かなり状況は異なる
比率の比
$ p_1/p_2 \qquad (11.23)
これなら、$ p_1/p_2 = 0.5001/0.5000 = 1.0002であり、$ p_1/p_2 = 0.0002/0.0001 = 2.00であるから、2つの状況の違いは鮮明
$ \frac{p_1/(1-p_1)}{p_2/(1-p_2)} = p_1(1-p_2)/p_2(1-p_1) \qquad (11.24)
オッズ比は「正反応は他方の反応の何倍生じやすいかの比」である
これらは生成量
$ p_1^{(t)} - p_2^{(t)}, \quad p_1^{(t)}/p_2^{(t)}, \quad p_1^{(t)}(1-p_2^{(t)})/p_2^{(t)}(1-p_1^{(t)}) \qquad (11.25)
によってそれぞれの事後分布を近似できる
table: 表11-4 「ブランド認知問題1」の母数と生成量の事後分布
EAP post.sd 2.5% 5% 50% 95% 97.5%
p_1 0.688 0.041 0.604 0.618 0.689 0.754 0.766
p_2 0.260 0.039 0.187 0.198 0.259 0.327 0.341
比率の差 0.428 0.057 0.313 0.332 0.429 0.520 0.536
比率の比 2.707 0.458 1.961 2.054 2.655 3.536 3.748
odds_1 2.263 0.447 1.528 1.620 2.215 3.068 3.271
odds_2 0.356 0.073 0.230 0.245 0.350 0.486 0.517
オッズ比 6.641 1.945 3.687 4.018 6.357 10.228 11.221
「ブランド認知問題1」の母数の事後分布
女性の認知率は$ 0.688(0.041)[0.640, 0.766] であり、男性の認知率は$ 0.260(0.039)[0.187, 0.341]
「ブランド認知問題1」の生成量の事後分布
比率の差は$ 0.428(0.057)[0.313, 0.536] であり、女性は男性より$ 42.8ポイント高い
比率の比は$ 2.707(0.458)[1.961, 3.748] であり、女性は男性の約$ 2.7倍ブランドAを認知している
オッズ比は$ 6.641(1.945)[3.687, 11.221] であり、「認知している人が認知していない人の何倍いるか」の女性/男性の比は約$ 6.6
(11.18)式に準じた生成量を構成し、研究仮説が正しい確率を計算することができる
「女性の認知率と男性の認知率の差は$ 0.3より大きい」という研究仮説は$ 98.5\%正しい
「女性の認知率と男性の認知率の比は$ 3.0より大きい」という研究科仮説は$ 23.5\%正しい
「オッズ比は$ 0.8より大きい」という研究仮説は$ 21.2\%正しい
11.5. g×2のクロス表の推測(g個の2項分布の積)
お年玉問題
今年の正月にお年玉をもらったか否かを、高校生・大学生(前, 19歳以下)・大学生(後, 20歳以上)・社会人(25歳以下)別に集計した
table: 表11-5 お年玉があったか否か (人数)
あり なし 計
高校生 42 9 51
大学生(前) 31 18 49
大学生(後) 29 21 50
社会人 20 28 48
母比率の推測・比較をしなさい
独立した$ g群(この場合は$ g=4)の正反応数$ x_i($ i=1, \cdots, g)が試行数$ n_i、母比率$ p_iの2項分布に従うとする
データ$ \bm x = (x_1, \cdots, x_g)、母数$ \bm \theta = (p_1, \cdots, p_g)の尤度は、$ g個の2項分布の積
$ f(\bm x|\bm\theta) = f(x_1, \cdots, x_g|p_1, \cdots, p_g) = f(x_1|p_1) \times \cdots f(x_g|p_g) \qquad (11.26)
事前分布$ f(p_1), \cdots, f(p_g) としては、確率の定義域に対する区間$ [0, 1] の互いに独立な一様分布を仮定し、同時事前分布を以下とする
$ f(\bm\theta) = f(p_1) \times \cdots \times f(p_g) \qquad (11.27)
(2.15)式に相当する事後分布
$ f(\bm\theta|\bm x) \propto f(\bm x|\bm\theta)f(\bm \theta) \qquad (11.28)
MCMC法で母数の事後分布を近似する
table: 表11-6 「お年玉問題」の母数の事後分布
EAP post.sd 2.5% 5% 50% 95% 97.5%
p_1 高校生 0.811 0.053 0.696 0.717 0.815 0.892 0.904
p_2 大学生(前) 0.627 0.067 0.491 0.514 0.629 0.735 0.754
p_3 大学生(後) 0.577 0.068 0.441 0.463 0.578 0.687 0.707
p_4 社会人 0.420 0.069 0.288 0.308 0.419 0.536 0.558
$ p_i^{(t)}が$ p_j^{(t)}より大きい時に値$ 1となり、そうでないときに値$ 0となる生成量$ U_{p_i>p_j}のEAPを表11-7の$ i行$ j列のセルに示した
table: 表11-7 行iのカテゴリが列jのカテゴリより比率が大きい確率
p_1 p_2 p_3 p_4
p_1 高校生 0.000 0.983 0.996 1.000
p_2 大学生(前) 0.017 0.000 0.701 0.983
p_3 大学生(後) 0.004 0.299 0.000 0.945
p_4 社会人 0.000 0.017 0.055 0.000
高校生は大学生(前)より$ 98.5\%の確信で、大学生(前)は大学生(後)より$ 70.1\%の確信で、大学生(後)は社会人より$ 94.5\%の確信で比率が大きいといえる
11.5.1. 連言命題が正しい確率
表11-7の確率は、2つのカテゴリの大小比較の確率としては、そのまま解釈可能
ただし複数の比較が同時に成り立つ確率とは異なる
研究上の問い「お年玉をもらえる比率は年代とともに下降する」が正しい確率を求める
このRQ.が真のときには$ 1を偽のときには$ 0をとる生成量
$ u_{p_4<p_3}^{(t)} \times u_{p_3<p_2}^{(t)} \times u_{p_2<p_1}^{(t)} \qquad (11.29)
のEAPが求めたい確率となる
確率は$ 0.632になった
少し条件を緩めて研究上の問い「お年玉をもらえる比率は年代とともに下降するが、大学生は成人しているか否かは問わない」が正しい確率を求める
このRQ.が真のときには$ 1を、偽になるときには$ 0をとる生成量
$ u_{p_4<p_3}^{(t)} \times u_{p_4<p_2}^{(t)} \times u_{p_2<p_1}^{(t)} \times u_{p_3<p_1}^{(t)} \qquad (11.30)
のEAPが求めたい確率となる
確率は$ 0.914となった
「高校生はどの年代よりもお年玉をもらえる比率が高い」が正しい確率を求める
このRQ.が真のときには$ 1を、偽になるときには$ 0をとる生成量
$ u_{p_2<p_1}^{(t)} \times u_{p_3<p_1}^{(t)} \times u_{p_4<p_1}^{(t)} \qquad (11.31)
のEAPが求めたい確率となる
確率は$ 0.980となった
「社会人はどの年代よりもお年玉をもらえる比率が低い」が正しい確率を求める
このRQ.が真のときには$ 1を、偽になるときには$ 0をとる生成量
$ u_{p_4<p_1}^{(t)} \times u_{p_4<p_2}^{(t)} \times u_{p_4<p_3}^{(t)} \qquad (11.32)
のEAPが求めたい確率となる
確率は$ 0.932となった
放送授業
1変量の分布の特徴を要約する3番目の観点は歪度である